《自然生物技术》发表新一代微生物组分析平台QIIME 2——菌群分析步入可重复时代

Original 热心肠小伙伴们热心肠研究院 2020-10-11

今天是第1174期日报。

Nature Biotechnology本周正式发布了微生物组分析平台QIIME2，我们特别邀请该文章的共同作者、宏基因组公众号主编、中科院遗传与发育生物学研究所的刘永鑫博士，客串本期热心肠日报主编，为微生物组研究领域的专业读者带来一期精彩的专题，回顾近10年菌群分析领域的软件和算法，认识这些推动微生物组学规律发现的幕后英雄！

QIIME 2: 全新微生物组分析平台在Nature Biotechnology正式发表

Nature Biotechnology[IF:31.864]

① 发表于2010年的QIIME是基于Python2开发的微生物组领域高引分析流程，但在可重复、大数据方面无法满足当今需求；② 为解决以上问题，由QIIME一作Gregory Caporaso发起的QIIIME2基于Python3编写了可重复、可扩展的全新微生物分析平台，79家单位112人参与；③ 目前平台支持扩增子、宏基因组和代谢组数据分析，未来将支持宏转录组、蛋白组；④ 平台分析过程可追溯、图表可交互、结果查看和分享方便，满足未来可重复分析和多人合作的要求。

Reproducible, interactive, scalable, and extensible microbiome data science using QIIME 2
07-24, doi: 10.1038/s41587-019-0209-9

【主编评语】引用1.5万多次的微生物组分析流程QIIME发布已9年，无法满足当今大数据和可重复分析的要求。2016年发起的全新项目QIIME 2，基于Python3编写，集合了10个国家79家单位的112位作者共同参与，于2019年7月24日在生物技术顶级期刊Nature Biotechnology正式发表。该项目发表不是项目结束，而是刚刚开始，将会以每季度的速度进行大版本更新优化和增加新功能，而且也希望更多的国际同行加入，打造微生物组领域最强大的分析平台和知识库。该项目在发表前已经非正式引用近千次，现在大家可以优雅的引用它了。2018.11版本十万字中文教程见此。本月底将发布2019.7版本，配套中文文档和视频教程也将在宏基因组公众号陆续更新。（@刘永鑫）

QIIME：最高引的微生物组分析流程

Nature Methods[IF:28.467]

① 2010年微生物组计划积累了海量数据，但分析工具有限；② 一款基于Python的扩增子测序分析流程QIIME(读音chime)发布，是微生物生态学定量研究的缩写；③ 该流程实现从原始数据到发表级图表的全部分析，包括多样性、物种组成、差异比较、网络和核心物种等；④ 软件官网(qiime.org)提供16S/18S/ITS扩增子分析的教程和150+脚本满足不同数据类型的处理需求；⑤ 制定了多个行业标准，几十万字的帮助文档是学习和检索的资料库，推动了本领域的发展。

QIIME allows analysis of high-throughput community sequencing data
2010-05-01, doi: 10.1038/nmeth.f.303

【主编评语】2010年Rob Knight组发布的微生物组分析流程QIIME，整合了200+常用软件包，并编写150+辅助脚本，功能强大到没有对手，极大地推动微生物组领域的发展。Google统计截止18年7月引用1.58万次，每次仍将会以4-5千次引用速度递增，是目前本领域最广为人知的流程。此软件依赖关系众多安装困难的痛点，被近年发展的Conda安装技术完美解决，极大地促进了本软件的推广和使用。此软件简明中文教程，见宏基因组公众号《扩增子分析流程-把握分析细节》系列文章。（@刘永鑫）

mothur：引用过万跨平台的扩增子分析流程

Applied and Environmental Microbiology[IF:4.077]

① mothur是第一款整合了多种主流算法的独立扩增子分析流程，可实现从原始数据到OTU表、多样性、以及差异比较等分析；② 整合的主要软件有比对工具NAST、OTU聚类DOTUR、群落比较SONS、UniFrac进化距离比较等工具，并实现了跨平台、多线程等众多优点；③ 软件包的最大优点是跨平台，允许用户在笔记本上几小时内完成分析；④ 但在上游处理不同数据类型和文库拆分，下游的统计和绘图仍需其它软件补充；⑤ mothur目前引用累计过万，且保持稳定增长。

Introducing mothur: open-source, platform-independent, community-supported software for describing and comparing microbial communities
2009-12-01, doi: 10.1128/AEM.01541-09

【主编评语】mothur作为第一款扩增子分析流程，整理了作者之前开发的DOTUR、SONS(妈妈的女儿和儿子)和其它主流工具，简单易用，使扩增子技术走进普通实验室，极大的推动的本领域的发展，但有限于其下游缺少完善的可视化工具，而被后来的QIIME超越。mothur的最大优势是跨平台，可以在windows上轻松使用，而且软件拥有海量的社区用户且作者也定期办研讨会来进行技术分享，截止2019的7月Google学术统计引用超1.1万次，预计今年引用可达2千次且仍稳定增长。名字已被广大同行所铭记，成为推动本领域发展的重要一笔。近期GigaScience发表的Galaxy mothur (https://doi.org/10.1093/gigascience/giy166)让大家实现鼠标操作即可使用mothur，可能缺少宣传发表一年多仅有1次引用。（@刘永鑫）

USEARCH: 引用近万最易上手的扩增子分析流程

Bioinformatics[IF:4.531]

① USEARCH最早是一款序列比对软件，比BLAST快百倍；② 在此基础上作者开发了一系列扩增子分析算法，如UCHIME去嵌和UCLUST聚类，开始应用于扩增子分析；③ 后逐渐发展包括序列质控、双端合并、去冗余、嵌合体检测、挑选代表性序列和序列去噪等众多功能，成为较完整的扩增子分析流程；④ 软件安装简便、跨平台且易用性强，可实现200余种功能，引用近万次；⑤ 32位版本免费，64位商业版1485刀和学术版885刀，物有所值，已经成为生信同行的标配软件。

Search and clustering orders of magnitude faster than BLAST
2010-10-01, doi: 10.1093/bioinformatics/btq461

【主编评语】USEARCH由大神Robert C. Edgar单枪匹马开发的一款软件，整合了序列比对USEARCH、聚类UCLUST、嵌合体检测UCHIME、挑选代表性序列UPARSE、序列去噪UNOISE等众多流行算法，开发了200多种功能，可跨平台且体积小巧，可以完整实现扩增子分析全套流程，甚至包括机器学习、核心OTU鉴定等高级分析功能。截止2018年7月Google统计引用近万次，最新版11.0。虽然商业版价格不菲，但对于同行实验室经费允许还是推荐购买，节约学习时间成本，促进商业软件健康发展。中文系列教程详见：https://github.com/YongxinLiu/UsearchChineseManual（@刘永鑫）

VSEARCH：价值万元的64位USEARCH免费用

PeerJ[IF:2.353]

① USEARCH是最易安装、跨平台、低学习成本的扩增子分析流程，但64位版售价过万元；② 针对USEARCH非开源和价格高的问题，本文作者开发了功能齐全、体积小巧的扩增子分析流程VSEARCH，开源且免费；③ 软件大小仅有6M，可在Windows/Linux/Mac系统中运行，实现从原始数据到OTU表的分析，测试中一些方面比USEARCH更快更准；④ VSEARCH发布后被同行广泛使用，三年内引用近千次；⑤ VSEARCH有较快的更新频率，也开发一些新功能方便处理个性问题。

VSEARCH: a versatile open source tool for metagenomics
05-29, doi: 10.7717/peerj.2584

【主编评语】USEARCH是轻量、高效的扩增子分析流程，但非开源且64位版价值1485美元，限制了同行对分析细节的把握和经费不足者的使用。VSEARCH于2016年末横空出世，实现了绝大多数USEARCH的功能，让同行享受开源、免费、易安装、跨平台的轻量级扩增子分析，节约同行科研经费支出和学习时间成本。此软件更新较快，甚至开发了一些USEARCH没有的新功能，推荐扩增子分析入门用户选择。VSEARCH分析流程简明中文教程见此，中文帮助文档详见此。此软件也可以在QIIME 2中作为插件使用。（@刘永鑫）

DADA2: 去噪法鉴定扩增子测序中单碱基精度的代表序列(ASV)

Nature Methods[IF:28.467]

① DADA2是一个R包，可以实现Illumina扩增子测序数据的错误校正，获得单碱基精度的代表序列；② 与经典OTU挑选算法UPARSE相比结果大部分一致，同时发现更多真实序列；③ 以阴道数据为例，DADA2可观察到6种卷曲乳酸杆菌序列变体在不同样品间存在差异；④ 基于高中低复杂度数据测试，DADA2与UPARSE、MED、Mothur和QIIME相比，可检测到最全的参考菌株序列，以及最少的假阳性结果；⑤ DADA2现己发展成为R语言的完整分析流程，也可在QIIME2平台中使用。

DADA2: High-resolution sample inference from Illumina amplicon data
2016-07-01, doi: 10.1038/nmeth.3869

【主编评语】DADA2是去噪法鉴定扩增子代表序列方法的典型代表，推动了扩增子领域从按97%相似度聚类OTU向更精确的去噪扩增序列变异（ASV）分析方法的转变。现已发展成为完整的扩增子分析流程，可在R语言环境中跨平台实现从原始数据到ASV表的分析，中文教程见此。同时该方法也被QIIME 2平台收录作为代表序列鉴定的推荐方法，详见QIIME 2教程中人体、粪菌和沙漠3套实例教程均使用此方法。（@刘永鑫）

UPARSE：OTU代表序列挑选最高引的算法

Nature Methods[IF:28.467]

① 扩增子测序结果中存在大量测序错误、嵌合体等假阳性序列，导致过高估计物种数量；② 其它OTU挑选方法均包含大于3%以上的错误碱基，而UPARSE挑选OTUs的碱基错误率小于1%;③ 以人工模拟群落数据测试，UPARSE结果最接近真实群落的物种数量；④ 基于人类微生物组数据集测试，UPARSE结果拥有最低的嵌合体比例；⑤ UPARSE算法可在USEARCH软件中通过clust_otu子命令实现一条命令完成聚类、去嵌合和挑选代表性序列的过程，被众多分析流程调用。

UPARSE: highly accurate OTU sequences from microbial amplicon reads
2013-10-01, doi: 10.1038/nmeth.2604

【主编评语】UPARSE算法由独立研究员Robert C. Edgar于2013年单枪匹马发表于Nature Methods，在扩增子分析中OTUs聚类和挑选代表性序列环节独领风骚数年，被众多分析流程整合为默认方法，截止2018年5月引用近4千次。直到DADA2于2016年也发表于Nature Methods才对此方法发起了挑战，背后的故事，详见宏基因组公众号相关文章 - 扩增子分析还聚OTU就真OUT了；主流非聚类方法dada2,deblur和unoise3介绍与比较（@刘永鑫）

UCHIME：快而准的嵌合体检测方法

Bioinformatics[IF:4.531]

① 在PCR扩增过程中会产生嵌合体，在扩增16S/ITS研究中尤为严重，导致高假阳性率和过高估计物种数量；② UCHIME是一款嵌合体检测程序，可以从头或基于参考数据库鉴定嵌合体；③ 它比基于参考序列的ChimeraSlayer方法在短或噪音序列中表现更敏感，基于模拟群落数据从头鉴定比Perseus方法更敏感，且速度比这两种方法分别快1000倍和100倍；④ UCHIME可以作为独立的软件使用，也可以在USEARCH中实现，同时被众多扩增分析流程调用的必备分析步骤。

UCHIME improves sensitivity and speed of chimera detection
2011-08-15, doi: 10.1093/bioinformatics/btr381

【主编评语】Robert C. Edgar一作兼通讯的文章，也有行业第一高引大佬Rob Knight参与。2011提出了扩增子分析中嵌合体检测的新方法，一直延用至今，经久不衰。截止2019年7月Google学术统计引用高达6500多次。此步骤是扩增子分析中的必备环节，是众多扩增子分析流程调用的默认方法。关于嵌合体的介绍，参阅：http://www.drive5.com/usearch/manual/chimeras.html（@刘永鑫）

感谢本期日报的创作者：刘永鑫

点击阅读过去10天的日报：

0726 | 《科学》：免疫缺陷促肥胖？肠道菌群要背锅

0725 | 巧用噬菌体，让大肠癌治疗更加安全有效

0724 | 肠道菌群参与儿童哮喘，再添新证

0723 | 1篇《自然》+2篇《自然·医学》，肠道菌群热度不减

0722 | 《科学》：消化道癌症中，慢性炎症如何推波助澜

0721 | 预防老年痴呆：从健康饮食和健康生活开始

0720 | 生酮饮食治疗肥胖和糖尿病？让子弹再飞一会儿

0719 | 重磅综述：益生菌与益生元的机制与应用

0718 | 《自然》：肠道感染或许是帕金森病的诱因

0717 | 是时候打倒饱和脂肪了吗？